Über den Einfluss von Part-of-Speech-Tags auf Parsing-Ergebnisse
نویسندگان
چکیده
Lange Zeit konzentrierte sich die Forschung im datengetriebenen statistischen Konstituenzparsing auf die Entwicklung von Parsingmodellen für das Englische, genauer gesagt, für die Penn Treebank (Marcus et al., 1993). Einer der Gründe dafür, warum sich solche Modelle nicht ohne Weiteres auf andere Sprachen generalisieren lassen, ist die eher schwach ausgeprägte Morphologie des Englischen: Probleme, die sich bei Parsen einer morphologisch reichen Sprache wie z.B. Arabisch oder Deutsch stellen, stellen sich für das Englische nicht. Vor allem in den letzten Jahren erfuhr die Forschung zu Parsingproblemen, die sich auf komplexe Morphologie beziehen, ein gesteigertes Interesse (Kübler und Penn, 2008; Seddah et al., 2010, 2011; Apidianaki et al., 2012). In einer Baumbank sind Wörter im allgemeinen Information annotiert, die Auskunft über die Wortart (Part-of-Speech, POS) und morphologischen Eigenschaften eines Wortes gibt. Wo, sofern vorhanden, die Trennlinie zwischen Wortart und morphologischer Information gezogen wird und wie detailliert annotiert wird, hängt von der Einzelsprache und dem Annotationsschema ab. In einigen Baumbanken gibt es keine separate morphologische Annotation (wie z.B. in der Penn Treebank), in anderen sind Part-of-Speechund Morphologie-Tagsets getrennt (z.B. in den deutschen Baumbanken TiGer (Brants et al., 2002) und NeGra (Skut et al., 1997)), und in anderen ist wiederum nur ein Tagset vorhanden, das sowohl POSals auch Morphologie-Information enthält (z.B. in der Szeged Treebank (Csendes et al., 2005)). Die Anzahl verschiedener Tags für Sprachen mit einer komplexen Morphologie kann in die Tausende gehen, so z.B. für Tschechisch (Hajič et al., 2000), während für die Modellierung der Wortarten von Sprachen mit wenig bis keiner Morphologie nur wenige Tags ausreichen, z.B. 33 Tags für die Penn Chinese Treebank (Xia, 2000). Wir schließen der Einfachheit halber alle Annotationstypen ein, wenn wir ab hier von Part-of-Speech-Annotation sprechen. Die Part-of-Speech-Tags nehmen eine Schlüsselrolle beim Parsen ein als Schnittstelle zwischen lexikalischer Ebene und dem eigentlichen Syntax-Baum: Während des Parsingvorgangs wird der eigentliche Konstituenzbaum nicht direkt über den Wörtern, sondern über der Part-of-Speech-Annotation erstellt. Ein Part-of-Speech-Tag kann als eine Äquivalenzklasse von Wörtern mit ähnlichen distributionellen Charakteristika angesehen werden, die über die individuellen Wörter abstrahiert und damit die Anzahl der Parameter beschränkt, für die Wahrscheinlichkeiten gelernt werden müssen. Die eigentlichen Wörter finden bei lexikalisierten Parsern Eingang in das Wahrscheinlichkeitsmodell. Es ist offensichtlich, dass die Part-of-Speech-Annotation direkten Einfluss auf die Qualität des Parsebaums hat. Nicht nur die Qualität des Taggers spielt hierbei eine Rolle, sondern auch die Granularität des Tagsets an sich. Es muss ein Kompromiss
منابع مشابه
Phishing still works: Erfahrungen und Lehren aus der Durchführung von Phishing-Experimenten
Wir beschreiben die Durchführung und die Ergebnisse zweier Experimente, bei denen der Einfluss verschiedener Gestaltungsparameter von E-Mails und Webseiten auf den Erfolg von Phishing-Angriffen untersucht wurde. Wir berichten außerdem über unsere Erfahrungen, welche technischen, ethischen und rechtlichen Aspekte beim Design und der Durchführung solcher Experimente beachtet werden müssen.
متن کاملDer Einfluss von Schwankungen der Übertragungsreichweite auf die Leistungsfähigkeit von Ad-Hoc Netzwerken
Die Leistungsfähigkeit eines drahtlosen, mobilen Ad-Hoc Netzwerkes wird im wesentlichen durch die Fhigkeit der Protokolle bestimmt, auf Änderungen der Netzwerktopologie effektiv zu reagieren. Die für diese Netzwerke charakteristische Eigenschaft der Dynamik in der Netztopologie basiert im wesentlichen auf der Mobilität der Knoten und auf Schwankungen der Funkreichweite. Während der Mobilitätsas...
متن کاملMarkets and Choice Economics of Change Poverty and Transitions in Health
Poverty and Transitions in Health* Using a sample of Europeans aged 50+ from twelve countries in the Survey of Health, Ageing and Retirement in Europe (SHARE) we analyse the role of poor material conditions as a determinant of changes in health over a four-year period. We find that poverty defined with respect to relative incomes has no effect on changes in health. However, broader measures of ...
متن کاملDer Einfluss des Internets auf individuelles politisches Handeln: Ergebnisse eines sozialwissenschaftlichen Forschungsprojekts
Der Beitrag untersucht den Einfluss der zunehmenden Verbreitung von Internet-Zugängen auf politische Kommunikation und Partizipation. Ausgangspunkt ist die in der Literatur häufig geäußerte Vermutung, das Internet könne – wie dies auch bei anderen Medien z.T. nachgewiesen werden konnte – einen mobilisierenden Effekt haben. Die Ergebnisse zeigen, dass dies insbesondere dort tatsächlich der Fall ...
متن کاملEinflussgrößen auf die Nutzungsabsicht von Mobile Learning in unterschiedlichen Einsatzszenarien - eine empirische Studie
Mobile Learning (ML) bietet nur bei entsprechender Nutzung durch die Lernenden einen Mehrwert. In mehreren Studien wurden Einflussgrößen auf die Technologieakzeptanz untersucht und diverse Modelle zeigen, dass die wahrgenommene Nützlichkeit zentral für die Nutzungsabsicht ist. Frühere Studien haben jedoch nie zwischen selbstgesteuertem ML und dem Einsatz mobiler Lernanwendungen innerhalb von Pr...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- JLCL
دوره 28 شماره
صفحات -
تاریخ انتشار 2013